【论文笔记】韩家炜团队AutoPhrase:自动短语挖掘 |
您所在的位置:网站首页 › 英语短语on chair使用方法 › 【论文笔记】韩家炜团队AutoPhrase:自动短语挖掘 |
说在前面
刚开始摸索知识图谱,于是对刚开始读的一些论文做了笔记,共享一下。笔记首次分享于公众号“专知”,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务。有喜欢的朋友微信搜索“专知"。 【导读】作为文本分析中的基础任务,短语挖掘旨在从文本语料库中获取质量短语,并 应用在信息获取、信息检索、分类构建和主题模型中。现存的这些方法大多依赖于复杂的语义分析器,在一些新领域的语料库中的效果似乎并不理想,而且还需要大量的人力。因此,在本文中提出一种新的模型AutoPhrase来自动挖掘任意语种的短语。 动机理想的自动短语挖掘方法应该是独立于不同领域,并且只需要最少的人力或语言分析器。因此提出了AutoPhrase框架,更深层次的避免了人工标注,并提高了性能。 创新点 提出了POS-Guided短语分割:提高了词性标记的性能; 本文提出新的自动短语挖掘框架AutoPhrase:独立于领域,只需要很少的人力或语言分析; 提出了一种鲁棒的、仅为正的远程短语质量估计训练方法,以最小化人工工作量。 两种新技术 Robust Positive-Only Distant Training利用已有的知识库做远程监督训练,如维基百科,其中的高质量短语免费且数量多,远程训练过程中,使用这些词可以避免手工标注。 具体做法: 从通用知识库中的构建正样本 从给定的知识库中的获取负样本 训练大量基本分类器 将分类器的预测聚合起来 POS-Guided短语分割利用词性信息来增加抽取的准确性。语言处理器应该权衡准确率和领域独立能力。 对于领域独立能力,如果没有语言知识,准确率就会受限 对于准确性,依赖复杂的、训练好的语言分析器,就会降低领域独立能力解决方法:将预先训练好的词性标记加入到文档集,以提高性能。 Preliminaries有效识别质量短语对于处理大规模文本数据来说十分重要。与提取关键短语相反,它远超单个文档的范围。使用文本检索算法通常会过滤一些词并将候选词限制为名词短语。使用预定义的词性规则,可以将名词短语标识为带有POS标签的候选单词。 本篇论文的目的是想实现从文件集中自动挖掘短语来获取质量短语,而不需要消耗人力。对于这个任务,输入为语料库(特定语言和特定领域的文本单词序列)和知识库,输出为一个按质量递减排列的短语列表。 质量短语被定义为一个单词序列成为一个完整语义单词的概率,满足以下条件: 流行度:在给定的文档集中,质量短语出现的频率应该要足够高 一致性:由于偶然,质量短语中的tokens发生的概率要高于预期 信息性:如果一个短语表达了一个特定的话题和概念,那这个短语就是信息化的 完整度:长频繁短语及其子序列均满足上述3个条件。当一个短语在特定的文档上下文中解释为一个完整的语义单元时,就被认为是完整的。AutoPhrase会根据正负池对质量短语进行两次评估,分别是在短语分割的前和后。也就是说,POS-Guided短语分割需要一组初始的质量短语分数,预先根据原始频率估计分数,然后一旦特征值被纠正,就要重新估计分数。 只有满足上述要求的短语才能被认为是质量短语。 AutoPhrase的第一部分(上图中的左部分)候选短语集合包含所有超过最小阈值的n-grams。这里的阈值指的是通过字符串匹配计算出的n-grams的原始频率。在实际中,设置短语长度的阈值n |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |